गूगल की परियोजना एस्टरा, वेओ और जेमिनी अपग्रेड बैटल एआई प्रगति
यह गूगल का ओपनएआई के प्रति उत्तर है।
एक सामान्य एआई, एक ऐसा एआई जिसका वास्तव में दैनिक उपयोग किया जा सके, यदि ऐसा नहीं है तो प्रेस कॉन्फ्रेंस आयोजित करना शर्मनाक होगा।
15 मई की सुबह, तकनीकी दुनिया के वार्षिक "स्प्रिंग फेस्टिवल गाला" गूगल I/O डेवलपर्स कॉन्फ्रेंस आधिकारिक रूप से शुरू हुई। 110 मिनट की मुख्य कीनोट में कितनी बार आर्टिफिशियल इंटेलिजेंस का उल्लेख किया गया? गूगल ने इसे गिना है:
हाँ, हर मिनट एआई की चर्चा हो रही है।
जनरेटिव एआई की प्रतिस्पर्धा हाल ही में एक नए चरम पर पहुँच गई है, और इस I/O कॉन्फ्रेंस की सामग्री स्वाभाविक रूप से आर्टिफिशियल इंटेलिजेंस के चारों ओर घूमती है।
“एक साल पहले इस मंच पर, हमने मूल मल्टीमोडल बड़े मॉडल, जेमिनी के लिए अपनी योजनाएँ साझा की थीं। इसने I/O की नई पीढ़ी को चिह्नित किया,” गूगल के सीईओ सुंदर पिचाई ने कहा। “आज, हम आशा करते हैं कि सभी लोग जेमिनी की तकनीक से लाभान्वित हो सकें। ये क्रांतिकारी विशेषताएँ खोज, चित्र, उत्पादकता उपकरण, एंड्रॉइड सिस्टम और कई अन्य पहलुओं में प्रवेश करेंगी।”
वर्तमान में, 1.5 प्रो और 1.5 फ्लैश सार्वजनिक पूर्वावलोकन के लिए उपलब्ध हैं और गूगल एआई स्टूडियो और वर्टेक्स एआई में 1 मिलियन टोकन संदर्भ विंडो प्रदान करते हैं। अब, 1.5 प्रो भी एपीआई का उपयोग करने वाले डेवलपर्स और गूगल क्लाउड ग्राहकों के लिए 2 मिलियन टोकन संदर्भ विंडो प्रदान करता है।
इसके अतिरिक्त, जेमिनी नैनो को केवल पाठ इनपुट से छवि इनपुट तक विस्तारित किया गया है। इस वर्ष के अंत में, पिक्सेल से शुरू होकर, गूगल मल्टीमोडल जेमिनी नैनो लॉन्च करेगा। इसका मतलब है कि मोबाइल उपयोगकर्ता न केवल पाठ इनपुट को संसाधित कर सकते हैं बल्कि दृश्य, ध्वनि और बोली गई भाषा जैसे अधिक संदर्भात्मक जानकारी को भी समझ सकते हैं।
जेमिनी परिवार एक नए सदस्य का स्वागत करता है: जेमिनी 1.5 फ्लैश
नया 1.5 फ्लैश गति और दक्षता के लिए अनुकूलित किया गया है।
नई पीढ़ी का ओपन-सोर्स बड़ा मॉडल जेम्मा 2
आज, गूगल ने ओपन-सोर्स बड़े मॉडल जेम्मा की एक श्रृंखला के अपडेट भी जारी किए - जेम्मा 2 यहाँ है।
जैसा कि बताया गया है, जेम्मा 2 एक नए आर्किटेक्चर का उपयोग करता है जिसका उद्देश्य क्रांतिकारी प्रदर्शन और दक्षता प्राप्त करना है, नए ओपन-सोर्स मॉडल पैरामीटर 27B हैं।
जब लंबी वीडियो की बात आती है, तो वेओ 60 सेकंड या उससे भी लंबे वीडियो उत्पन्न कर सकता है। यह एकल प्रॉम्प्ट के माध्यम से या एक श्रृंखला की प्रॉम्प्ट प्रदान करके कहानी बताने में सक्षम है। यह फिल्म और टेलीविजन उत्पादन में वीडियो जनरेशन मॉडलों के अनुप्रयोग के लिए कुंजी है।
वेओ गूगल के दृश्य सामग्री निर्माण में किए गए कार्यों पर आधारित है, जिसमें जनरेटिव क्वेरी नेटवर्क (GQN), DVD-GAN, इमेज-टू-वीडियो, फेनाकी, वॉल्ट, वीडियोपॉयट, लुमियरे और अन्य शामिल हैं।